Repensando la Regularización de Divergencia en RL para LLMs Descubre DRPO: un nuevo método que reemplaza el recorte de ratio con regularización cuadrática suave para estabilizar el entrenamiento RL en modelos de lenguaje. 2026-06-09 · 1 min